218 research outputs found

    Comparing high dimensional partitions, with the Coclustering Adjusted Rand Index

    Get PDF
    We consider the simultaneous clustering of rows and columns of a matrix and more particularly the ability to measure the agreement between two co-clustering partitions. The new criterion we developed is based on the Adjusted Rand Index and is called the Co-clustering Adjusted Rand Index named CARI. We also suggest new improvements to existing criteria such as the Classification Error which counts the proportion of misclassified cells and the Extended Normalized Mutual Information criterion which is a generalization of the criterion based on mutual information in the case of classic classifications. We study these criteria with regard to some desired properties deriving from the co-clustering context. Experiments on simulated and real observed data are proposed to compare the behavior of these criteria.Comment: 52 page

    Une revue bibliographique de la classification croisée au travers du modèle des blocs latents

    Get PDF
    International audienceWe present here model-based co-clustering methods, with a focus on the latent block model (LBM). We introduce several specifications of the LBM (standard, sparse, Bayesian) and review some identifiability results. We show how the complex dependency structure prevents standard maximum likelihood estimation and present alternative and popular inference methods. Those estimation methods are based on a tractable approximation of the likelihood and rely on iterative procedures, which makes them difficult to analyze. We nevertheless present some asymptotic results for consistency. The results are partial as they rely on a reasonable but still unproved condition. Likewise, available model selection tools for choosing the number of groups in rows and columns are only valid up to a conjecture. We also briefly discuss non model-based co-clustering procedures. Finally, we show how LBM can be used for bipartite graph analysis and highlight throughout this review its connection to the Stochastic Block Model.Nous présentons ici les méthodes de co-clustering, avec une emphase sur les modèles à blocs latents (LBM) et les parallèles qui existent entre le LBM et le Modèle à Blocs Stochastiques (SBM), notamment pour l'analyse de graphes bipartites. Nous introduisons différentes variantes du LBM (standard, sparse, bayésien) et présentons des résultats d'identifiabilité. Nous montrons comment la structure de dépendance complexe induite par le LBM rend l'estimation des paramètres par maximum de vraisemblance impossible en pratique et passons en revue des méthodes d'inférence alternatives. Ces dernières sont basées sur des procédures itératives, combinées à des approximations faciles à maximiser de la vraisemblance, ce qui les rend malaisés à analyser théoriquement. Il existe néanmoins des résultats de consistence, partiels en ce qu'ils reposent sur une condition raisonnable mais encore non démontrée. De même, les outils de sélection de modèle actuellement disponibles pour choisir le nombre de cluster reposent sur une conjecture. Nous replacons brièvement LBM dans le contexte des méthodes de co-clustering qui ne s'appuient pas sur un modèle génératif, particulièrement celles basées sur la factorisation de matrices. Nous concluons avec une étude de cas qui illustre les avantages du co-clustering sur le clustering simple

    Ça ne dure jamais plus d'une heure, le ciel ; suivi de Donner sens

    Get PDF
    La première partie de ce mémoire de maîtrise présente un recueil qui compte huit nouvelles et quatre récits. « Ça ne dure jamais plus d'une heure, le ciel » regroupe des textes à première vue hétéroclites, mais qui sont tous mus par une idée, celle de la rencontre, ou plutôt celle de l'impossibilité de la rencontre. Les nouvelles deviennent des récits et les récits, des fictions. Les personnages, qu'ils aient réellement existé ou non, partagent les mêmes lieux (Canada, Grande-Bretagne, Afrique du Sud, Népal, Chine, etc.) et les mêmes préoccupations philosophiques, ces dernières étant regroupées autour du thème de la solitude. Peut-on se quitter soi-même pour aller vers l'autre? Tous les textes de ce recueil enferment cette question dans un cercle vicieux qui, dans un effet boomerang, résout et ne résout pas le problème. S'ensuit une construction presque toujours circulaire où la fin du texte renvoie à son commencement et vice versa. La deuxième partie de ce mémoire est un essai des plus personnels sur ma démarche d'écrivain. En vingt-cinq fragments réunis sous le signe du problème de l'intersubjectivité, « Donner sens » explore le problème du partage des expériences – qui est au cœur de la partie création de ce mémoire –, mais aussi celui de la mort, où se cristallisent paradoxalement les questions du sens de la vie. Peut-on réellement sortir de soi et toucher l'autre en n'utilisant que des mots? La réponse ne peut être qu'antinomique, évidemment, puisqu'elle ne peut s'articuler qu'en mots, justement. Le corpus de références qui a permis d'écrire cet essai est essentiellement issu de la tradition phénoménologique (Husserl, Heidegger, Merleau-Ponty), mais se nourrit aussi de la pensée d'auteurs littéraires latino-américains tels Jorge Luis Borges et Julio Cortazar.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : nouvelle, récit, solitude, sens, intersubjectivité

    Package 'blockseg'

    Get PDF
    Package for the software RThis package is designed to segment a matrix in blocks with constant values

    Modèle des blocs latents avec une classe de bruit

    Get PDF
    International audienceCo-clustering is known to be a very powerful and efficient approach in unsupervised learning because of its ability to partition data based on both modes of a dataset. However, in high-dimensional context co-clustering methods may fail to provide a meaningful result due to the presence of noisy and/or irrelevant features. In this talk, we propose to tackle this issue by proposing a novel co-clustering model, based on the latent block model, and which assumes the existence of a noise cluster, that contains all irrelevant features. Experimental results on synthetic datasets show the efficiency of our model in the context of high-dimensional noisy data. Finally, we highlight the interest of the approach on two real datasets which goal is to study genetic diversity across the world.La classification croisée est connue pour être une approche très efficace en apprentissage non supervisé en raison de sa capacité à partitionner simultanément les lignes et colonnes d'une matrice de données. Cependant, dans un contexte de grande dimension, les méthodes de classification croisée peuvent être perturbées en raison de la présence de colonnes bruitées et/ou non discriminantes. Dans cet exposé, nous abordons ce problème en proposant un nouveau modèle de classification croisée, à partir du modèle des blocs latents, qui modélise l'existence d'une classe de bruit, à laquelle appartient l'ensemble de ces variables non pertinentes pour le partitionnement des données. Les résultats obtenus sur des données synthétiques montrent l'efficacité de notre modèle dans le contexte des données bruitées en grande dimension. Enfin, nous soulignons l'intérêt de cette approche sur deux jeux de données réelles initialement proposés pour étudier les diversités génétiques à travers le monde
    corecore